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Estimativa de erro 


= Depende do problema: 
= Classificação: considera taxa de exemplos 
incorretamente classificados 
= Acurácia 


= Regressão: considera diferença entre valor 
produzido e valor esperado 


= Agrupamento: diferentes critérios 
= Média dos erros obtidos em diferentes 
execuções de um experimento 
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+ Métodos de amostragem 


= Utilizados para avaliar desempenho de 
um classificador 
= Hold-out 
= Randon subsampling 
= Cross validation 
= Leave-one-out 
= Bootstrap 
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+ Principais tópicos 


= Estimativa do erro 

= Partição dos dados 

= Reamostragem 

= Tipos de erro 

= Avaliação do desempenho 
= Curvas ROC 
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Estimativa de Erro de Classificação 


= Processo de treinamento é utilizado para 
seleção do modelo 
= Modelo com a complexidade correta (sem 
overfitting) 
= Após construção do modelo, ele pode ser 
testado com novos exemplos 
= Evitar modelo otimista 
= Conjunto de teste 
= Estimativa não tendenciosa de erro de generalização 
= Comparação de modelos utiliza desempenho em 
dados de teste 


= Métodos de amostragem 
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+ Hold-out 


= Também conhecido como sp/it-sample 

= Técnica mais simples para estimativa de 
erro 

= Faz uma única partição da amostra em: 


= Conjunto de treinamento: geralmente 1/2 ou 
2/3 dos dados 
= Conjunto paras teste: os dados restantes 
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+ Hold-out + Hold-out 


= Indicado para grande quantidade de dados (ex.: a Re E treinamento e teste não são 
mais de 1000) independentes 


; = Classe sub-representada em um conjunto será 
= Pequena quantidade de dados super-representada no outro 


= Poucos exemplos são usados no treinamento = E vice-versa 


= Modelo pode depender da composição dos conjuntos = Aproximação pessimista 


de treinamento e teste Resultad btid d 
= Quanto menor conjunto de treinamento, maior a variância = Resultados obtidos po em ser pouco 


do modelo significativos 


= a de teste, menos confiável a acurácia = Solução: utilizar reamostragem 
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+ Métodos de reamostragem + Random subsampling 


E Utiliz amaro. partições paras = Diferentes partições treinamento-teste são 
conjuntos de treinamento e teste astnlhidas deforma álediária 


= Random subsampling é DisnDe O 
= Cross-validation = Taxa de erro é calculada para cada partição 
= Leave-one-out = Taxa de erro estimada é a média dos erros para as 
= Bootstrap diferentes partições 
= Pode obter uma estimativa de erro mais 
precisa para o desempenho de um modelo 


27/09/2012 André de Carvalho - ICMC/USP 27/09/2012 André de Carvalho - ICMC/USP 


+ Cross-validation + Leave-one-out 


= Validação cruzada no = Sua estimativa de erro é praticamente não 
= Classe de métodos para estimativa da tendenciosa 


taxa de erro verdadeira « Média das estimativas tende a taxa de erro 
= K-fold cross-validation verdadeiro 
= Cada objeto participa o mesmo número de = Computacionalmente caro 


vezes do treinamento = Geralmente utilizado para pequenos conjuntos de 
- E apenas uma vez do teste exemplos 


 Estratificado = 10-fold cross validation aproxima leave-one-out 
= Leave-one-out (K = N) doa Senra 
= Variância tende a ser elevada 
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+ 5 x 2 Cross-validation + Bootstrap 


= Conjuntos de treinamento e teste com = Funciona melhor que cross-validation para 
mesmo tamanho conjuntos muito pequenos 
= Dietterich, 1998 = Forma mais simples de bootstrap: 
= Ao invés de usar sub-conjuntos dos dados, 


usar sub-amostras 


= Cada sub-amostra é uma amostra aleatória com 
substituição do conjunto total de exemplos 


= Cada conjunto de treinamento têm o mesmo 
número de exemplos do conjunto total 


= Os exemplos que restarem são utilizados para teste 
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+ Bootstrap + Erro de classificação 


= Se conjunto original tem N exemplos inri ati A 
= Amostra de tamanho N tem = 63,2% dos É Principal objetivo de um modelo é 


exemplos originais dei corretamente para novos 
= Processo é repetido b vezes exemplos. | 
= Resultado final = média dos b experimentos = Errar o mínimo possivel 


= Existem diversas variações Minima dee ; 
= Como calcular a acurácia do classificador " Geralmente Hao É possível medir com 
« .632 bootstrap exatidao essa taxa de erro 
= Ela deve ser estimada 


27/09/2012 André de Carvalho - ICMC/USP 27/09/2012 André de Carvalho - ICMC/USP 


+ Estimativa de erro de classificação + Classificação binária 


= Acurácia = Dois tipos de erro: 


= Trata as classes igualmente = Classificação de um exemplo N como P 
= Pode não ser adequada para dados « Falso positivo (alarme falso) 
desbalanceados =» Ex.: Diagnosticado como doente, mas está saudável 
= Classe rara é mais interessante que a = Classificação de um exemplo P como N 
majoritária = Falso negativo 


= Pode prejudicar desempenho para classe = Ex.: Diagnosticado como saudável, mas está doente 
minoritária 


27/09/2012 André de Carvalho - ICMC/USP 27/09/2012 André de Carvalho - ICMC/USP 





27/09/2012 


+ Tipos de erro + Tipos de erro 


seia = Matriz de confusão (tabela de contingência) 
a e é, em geral, a classe de pode ser utilizada para distinguir os erros 
maior interesse = Base de várias medidas 


= Ou com menos exemplos = Pode ser utilizada com 2 ou mais classes 


= Em alguns casos, os erros têm igual 
importância 
= Em outros, erros diferentes têm 
conseguências diferentes 


= No exemplo anterior, qual é pior (tem mais 
custo)? falso negativo ou falso positivo? 


Classe predita 


Classe verdadeira 
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+ Avaliação de desempenho + Avaliação de desempenho 


= Matriz de confusão para 200 exemplos 


A = Medidas de desempenho 
divididos em 2 classes 


FN 


Classe predita Taxa de FP (TFP) = VPAFN 


(Alarmes falsos) 


E Taxade FN(TEN) = 
FP+VN axa de FIN (TEN) = 
Erro do tipo I Erro do tipo II 

Classe predita E 
pn 


Classe predita 
pon 
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fo) 
= 
fo) 
Es) 
bo) 
Ko) 
= 
fo) 
> 
fo) 
n 
[a] 
o) 
(6) 


Classe predita 
(Op n 


' P 
PN 
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Classe verdadeira 


< 


N 


Classe verdadeira 
Classe verdade 


VP FP 


+ Avaliação de desempenho + Exemplo 


= Medidas de desempenho = Avaliação de 3 classificadores 


Classe predita E 
Taxa de FP (TFP) = 


(Alarmes falsos) 


FP Taxa de vp (Tup) =P 
FP+VN axa de VP (TVP) = ps py 
Pp 
Custo Benefício 


Classe verdadeira 


Classe predita Classe predita 
: o) , N 
Classe predita > Classe predita 


pn pn pn 
P P 
N N 
p n .P Lui 
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Classe verdadeira 
Classe verdade 
Classe verdadeira 


z 


Classe verdad 
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DD SS 
VP+EN  FP+VN 


+ Exemplo + Avaliação de desempenho 


= Avaliação de 3 classificadores = Medidas frequentemente utilizadas 


Classe predita Classe predita FP FN 


TFP = TAN =" am 


Classe predita 
p mn pn : 
E ' (Erro tipo 1) (Erro tipo II) 
v Especificidade = —N =11Fp 
N N —— VN+FP 
| En VP+VN 
VP : Acurácia = 


E VP+VN+FP+FN 
TVP= vps PN 

| Sensibilidade : 2 
Revocação (Recall) Medida-Fi = 1 prec+I/rev 
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Classe verdadeira 
Classe verdadeira 
Classe verdadeira 


+ Revocação X Precisão + Sensibilidade X Especificidade 


” VP o ads 
= Revocação (recall) VP+EN = Sensibilidade VP+EN 


= Taxa com que classifica como positivos = Taxa com que os exemplos positivos 
todos os exemplos que são positivos são classificados como positivos 
= Nenhum exemplo positivo é deixado de fora « Igual a revocação 


= Precisão vp VN 


DE LIP = Especificidade TN 
= Taxa com que todos os exemplos | , 
classificados como positivos são realmente = Taxa com que exemplos negativos 
positivos são classificados como negativos 


= Nenhum exemplo negativo é incluído = Nenhum exemplo negativo é deixado de fora 


27/09/2012 André de Carvalho - ICMC/USP 27/09/2012 André de Carvalho - ICMC/USP 


+ Avaliação de desempenho + Exemplo 


= Medida-F = Seja um classificador com a seguinte 
= Média harmônica ponderada da precisão e matriz de confusão, definir: 
da revocação = Acurácia 
(I+o)x(precxrev) n Precisão 
ax prec+rev = Revocação 
= Medida-Fi = Especificidade 
= Precisão e revocação têm o mesmo peso 


Classe predita 
pn 
Pp 


N 


Classe verdadeira 


2x(precxrev) 2 





prec+rev 1/prec+l/rev 
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+ Exemplo + Exemplo 


Acurácia = — VP+VN Acurácia= — VP+VN -(70+60)/(70 +30 + 40 + 60) = 0.65 
VP+VN+FP+FN VP+VN + FP+FEN 
vp Predito 


E PR E 
VP+FP Precisão = VP+FP É 70/(70+40) = 0.64 p n 


Precisão = 


a vp , VE - 
Revocação = VPEFN Revocação = VP+FN É 7/(70+30) = 0.70 


Verdadeiro 


Especificidade = Especificidade = 


Verdadeiro 


ai DO ni 40+60) = 0.60 
VN+FP vn rp = 60/(40+60) = 0. 
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+ Gráficos ROC 


= Do inglês, Receiver operating characteristics 
= Medida de desempenho originária da área de 
processamento de sinais 
= Muito utilizada nas áreas médica e biológica 


E = Mostra relação entre custo (TFP) e benefício 
ng Classificador 1 (TVP) 
2 Tt Classificador 2 


Precisão 


Revocação 
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+ Exemplo Gráficos ROC 


= Colocar no gráfico ROC os 3 ROC para os três classificadores Ea 
classificadores do exemplo anterior pd 


+ TM 


Taxa de VP 
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Taxa de FP Robert Holte 


University of Alberta. 
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+ Gráficos ROC + Curvas ROC 


= Classificadores discretos produzem um = Mostram ROC para diferentes variações 
simples ponto no gráfico ROC 


= ADs e conjuntos de regras = Classificadores que geram escores ou 
= Outros classificadores produzem uma probabilidades 


probabilidade ou escore = Diferentes valores de threshold podem ser 


= RNAse NB utilizados para gerar vários pontos 
= Curvas ROC permitem uma melhor = Cada valor de threshold produz um ponto 
comparação de classificadores diferente 


= São insensíveis a mudanças na distribuição = Ligação dos pontos gera uma curva ROC 
das classes 


27/09/2012 André de Carvalho - ICMC/USP 27/09/2012 André de Carvalho - ICMC/USP 





+ Curvas ROC + Curvas ROC 


1.0 


= Classificadores que geram valores 
Classificador ' 


Escpre/ 8 discretos 


Probabilístico = Podem ser convertidos internamente para gerar 


escores 


- Para ADs, diferentes thresholds para números de 
exemplos positivos que tornam a classe positiva 


= Podem ser combinados em comitês 


» Threshold para votos dos classificadores individuais 
forma escore 


a 
> 
(o) 
ES) 
Iv 
S 
E 








0.2 0.4 0.6 


Taxa de FP 
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+ Curvas ROC + Área sob a curva ROC (AUC) 


e = Fornece uma estimativa do desempenho de 
Classificador classificadores 
Discreto 
= Gera um valor continuo no intervalo [0, 1] 
= Quanto maior melhor 
= Adição de áreas de sucessivos trapezóides 
= Um classificador com maior AUC pode 
apresentar AUC pior em trechos da curva 
= É mais confiável utilizar médias de AUCs 





Taxa de VP 





0.4 0.6 


Taxa de FP 
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+ Área Sob Curvas ROC + Área Sob Curvas ROC 


1.0 1.0 





0.8 + 0.8 + 


0.6 — 0.6 + 
Nenhuma Discriminação 
Discriminação 


Perfeita 


Taxa de VP 
Taxa de VP 


0.4 0.6 


0.4 0.6 
Taxa de FP Taxa de FP 
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+ Área Sob Curvas ROC + Área Sob Curvas ROC 


1.0 1.0 








0.8 + 0.8 + 


0.6 + 0.6 + 


a 
> 
(o) 
ES) 
Iv) 
S 
E 


Taxa de VP 


0.4 0.6 


0.4 0.6 
Taxa de FP Taxa de FP 
27/09/2012 André de Carvalho - ICMC/USP 27/09/2012 André de Carvalho - ICMC/USP 


+ Avaliação de Desempenho + Considerações Finais 


= Teste de Hipóteses = Estimativa do erro 


= Compara dois desempenhos = Avaliação do desempenho 
= Testet = Erro 


= Teste McNemar = Tempo de resposta 
= Teste t pareado de 5x2 CV = Memória 


= Compara vários desempenhos = Representação 
= Teste Feelders e Verkooijen = Medidas 
« Teste de Friedman = Gráficos e curvas ROC 
= ANOVA = Teste de hipóteses 
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+ Perguntas 
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